查看原文
其他

微秒级“复活”网络:揭秘腾讯云新一代HARP协议

腾讯云 2023-03-23

云计算时代,大量计算、存储资源在服务器之间横向流动。承担服务器与服务器数据传输工作的交换机,自然成了数据中心的“神经枢纽”。


等等,这么说,那万一交换机出故障,数据中心内部岂不是“断网”了吗?😱服务器和服务器无法对话,上层业务轻则响应变慢,重则中断。


今天,就跟大家揭秘一下,在单个交换机故障时,腾讯云的新一代高性能网络,可以在100微秒内找到新的通路,实现0断链,从而保证上层业务不受影响。


这背后的武器,就是腾讯云自研高性能网络协议——HARP(Highly Available and Reliable Protocol)。


确定性多路径传输、微秒级路径切换

数据中心网络传统采用TCP传输协议,虽然能保证稳定可靠地传输数据,但延时大、占用系统资源高,且采用单路径路由,对网络故障的容忍度低。


为此,行业纷纷基于UDP协议展开新型网络协议的探索。UDP协议虽然速度快,但可能产生“丢包”,不能确保数据百分百送达。


腾讯云HARP协议是如何实现取长补短、青出于蓝的?


通过自研的报文编号方案追踪每个报文的发送和接收状态,HARP以极低开销支持乱序接收和选择性重传,保证了报文的可靠传输。


同时,HARP通过确定性多路径传输秒级路径切换,为上层应用提供高可用网络服务。

HARP在每个连接内采用多路径传输,每条路径有独立的拥塞探测能力。


基于自研拥塞控制算法优良的网络控制和感知能力,HARP的路径管理模块会根据路径的拥塞情况进行调度,快速可靠地检测到路径故障,并在100微秒时间内重新探测一条新的可用路径,保证在单个交换机故障时的断链概率为0。
相比起TCP遭遇故障的典型重连恢复时间(约为1s),HARP减少了99.9%

10000+节点、200Gbps带宽

“高可用”只是解决了服务可靠性的问题。比如腾讯云的云硬盘服务采用HARP后,即使网络发生故障,上层业务仍然可用并且性能抖动小。


同时,HARP也通过共享连接、软硬件分层、自研拥塞控制算法等技术设计,应对数据中心应用规模和需求不断发展带来的挑战。

  • 高可扩展

HARP通过共享连接大幅减少连接数量,实现高度的可扩展性,轻松支持10000+节点的大规模组网

具体方式上,HARP支持裸连接、云服务器级共享、物理服务器级共享等粒度的连接模式,用以满足裸金属云服务器、云服务器、云硬盘、高性能计算(HPC)等多种业务环境的使用需求和大规模组网要求。

  • 高带宽

HARP采用软硬件分层的事务层和可靠传输层设计,分工明确:硬件负责需要高效和可靠传输的报文级事务;软件部分则提供高度灵活、贴合业务特性需求的消息处理,而不占用昂贵的硬件资源。

最终,HARP可以支持在10K+节点的网络规模的业务中,提供200Gbps的最高性能输出,对于AI训练、键值存储、分布式大数据应用等场景具有独特价值。

  • 低延时

HARP采用自研的拥塞控制算法PEAD,精确地感知网络拥塞,在维持高吞吐的同时,保证网络流的通畅。

相较于TCP,HARP消息完成时间的中位数降低了35%,同时保证99%数据包的网络排队时延降低90%

目前,HARP已在腾讯云的块存储等具有核心需求的场景上落地,并将逐步覆盖其他业务。未来,HARP结合腾讯自研银杉智能网卡玄灵芯片的硬件能力,将打造成为腾讯云的数据中心高性能传输底座。

🔚
点击查看腾讯云最新好友列表

这球真看不下去!

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存